Googleov projekt Astra, Veo in nadgradnja Gemini: Napredek AI v boju
To je Googleov odgovor na OpenAI.
Splošna AI, AI, ki jo je mogoče resnično uporabljati vsak dan, bi bilo sramotno, če bi imeli novinarsko konferenco, če ni tako zdaj.
Zgodaj zjutraj, 15. maja, se je uradno začela letna "Pomladna festival gala tehnologije" Google I/O konferenca za razvijalce. Kolikokrat je bila umetna inteligenca omenjena v 110-minutnem glavnem nagovoru? Google je to preštel:
Da, o AI se govori vsako minuto.
Konkurenca generativne AI je nedavno dosegla novo vrhunec, vsebina te I/O konference pa se seveda vrti okoli umetne inteligence.
"Pred letom dni na tej odru smo prvič delili naše načrte za domači multimodalni velik model, Gemini. Označil je novo generacijo I/O," je dejal izvršni direktor Googla Sundar Pichai. "Danes upamo, da bo vsakdo lahko koristil tehnologijo Gemini. Te revolucionarne funkcije bodo prodrle v iskanje, slike, produktivne pripomočke, Android sisteme in mnoge druge vidike."
Trenutno sta na voljo za javno predogledovanje tako 1.5 Pro kot 1.5 Flash, ki ponujata 1 milijon tokenov kontekstnega okna v Google AI Studiu in Vertex AI. Zdaj 1.5 Pro prav tako zagotavlja 2 milijona tokenov kontekstnega okna za razvijalce, ki uporabljajo API, in uporabnike Googlovega oblaka prek čakalne liste.
Poleg tega je bil Gemini Nano razširjen iz čistega besedilnega vnosa na vhod slik. Kasneje letos, od Pixel-a naprej, bo Google lansiral multimodalni Gemini Nano. To pomeni, da lahko mobilni uporabniki obdelujejo ne le besedilne vnose, temveč tudi razumejo več kontekstnih informacij, kot so vizualni elementi, zvok in govorjeni jezik.
Družina Gemini pozdravlja novega člana: Gemini 1.5 Flash
Nova 1.5 Flash je bila optimizirana za hitrost in učinkovitost.
Nova generacija odprtokodnega velikega modela Gemma 2
Danes je Google prav tako izdal vrsto posodobitev odprtokodnega velikega modela Gemma - Gemma 2 je tukaj.
Kot je bilo predstavljeno, Gemma 2 uporablja novo arhitekturo, namenjeno doseganju revolucionarne učinkovitosti in zmogljivosti, novi odprtokodni parametri modela so 27B.
Kar zadeva dolge videe, lahko Veo ustvari videe dolge 60 sekund ali celo dlje. To lahko stori z enim samim pozivom ali z zagotavljanjem vrste pozivov, ki skupaj povedo zgodbo. To je ključno za uporabo modelov generacije videov v filmski in televizijski produkciji.
Veo temelji na Googlovem delu pri generaciji vizualnih vsebin, vključno z Generative Query Network (GQN), DVD-GAN, Image-to-Video, Phenaki, WALT, VideoPoet, Lumiere in drugimi.